arxiv：2401.08541v1 [cs.cv] 2024年1月16日__

arxiv：2401.08541v1 [cs.cv] 2024年1月16日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2401.08541v1 [cs.cv] 2024年1月16日

¥ 1.0

热度

本文介绍了IM，这是通过自动回归目标预先训练的视觉模型的集合。这些模型的灵感来自其文本对应物，即大型语言模型（LLMS），并显示出相似的缩放范围。具体来说，我们重点介绍了两个关键发现：（1）视觉特征的尺度具有模型容量和数据量，（2）Objective函数的值与下游任务上模型的性能相关。我们通过预先培训70亿个参数A IM对20亿张图像进行了培训来说明这些发现的实际含义，该参数在Imagenet-1K上具有冻结的躯干，在Imagenet-1K上实现了84.0％。有趣的是，即使在这个规模上，我们也没有观察到性能饱和的迹象，这表明IM可能代表了训练大规模视觉模型的新领域。IM的预训练与LLM的预培训相似，并且不需要任何特定图像的策略来稳定训练。

添加pdf代下载 VIP点击下载文件